# Procesamiento Lenguaje Natural (NLP) I

## ¿Qué es el NLP?

```{admonition} ¿Cuando se origina?
<div align="justify">El campo del procesamiento del lenguaje natural comenzó en la década de 1940, después de la Segunda Guerra Mundial. En ese tiempo, se reconoció la importancia de la traducción de un idioma a otro y se esperaba crear una máquina que pudiera hacer esta traducción automáticamente.</div>
```

<div align="justify"> En el <strong>NLP o Natural Language Processing</strong>  se traduce a procesamiento del lenguaje natural y se refiere a la rama de la informática, más concretamente la rama de la inteligencia artificial que se encarga de dar a los ordenadores la capacidad de entender texto de la misma forma que los seres humanos.</div><br>
<div align="justify">Combina lingüística computacional el modelo de lenguaje humano basado en reglas con modelos estadísticos de aprendizaje automático y de aprendizaje profundo. Todas estas tecnologías permiten que los ordenadores procesen el lenguaje humano para que parezca que comprenden, generan y responden de manera natural y coherente, como si tuvieran una comprensión real del significado y contexto detrás de las palabras y frases. A continuación se presenta una imagen con los principales hitos de la Genesis y Evolución de NLP en (https://commtelnetworks.com) </div><br>

:::{figure-md} markdown-fig
<img src="Genesis-and-Evolution-of-NLP.png" alt="NLP" width="700px">

Genesis y Evolución de NLP
::: 

## Librerías para NLP

```{table} Librerías de Python para NLP
:name: my-table-ref

|  Librería |  Descripción| 
|:-----:|:-----:|
| NLTK| Es una biblioteca que admite tareas como clasificación, etiquetado, derivación, análisis y razonamiento semántico.|
| Spacy|Permite crear aplicaciones que pueden procesar y comprender grandes volúmenes de texto y admite tokenización para más de 49 idiomas.|
| Gensim|Logra implementaciones multinúcleo eficientes de algoritmos como el análisis semántico latente (LSA) y la asignación de Dirichlet latente (LDA).| 
| Pattern | Es una biblioteca multipropósito que puede manejar NLP, minería de datos, análisis de redes, aprendizaje automático y visualización|
```

```{dropdown} Documentación de las distintas librerías para NLP
[NLTK](https://www.nltk.org) 

[Spacy](https://spacy.io/api/doc)

[Gensim](https://radimrehurek.com/gensim/auto_examples/index.html##documentation)
```

### NLTK o Kit de Herramientas de Lenguaje Natural

```{admonition} ¿Cuando se origina?
<div align="justify"> NLTK fue desarrollado en la Universidad de Pensilvania por Steven Bird y Edward Loper a finales de la década de 1990. Inicialmente se creó como una plataforma para la enseñanza e investigación en lingüística computacional y procesamiento del lenguaje natural (NLP). Con el paso de los años, NLTK ha evolucionado hasta convertirse en una biblioteca indispensable para tareas relacionadas con el lenguaje en los dominios de inteligencia artificial, aprendizaje automático y ciencia de datos.</div>
```

## Flujo o Pipeline de NLP

```{admonition} ¿Qué es el Pipeline?
<div align="justify">Se refiere a una secuencia de etapas o tareas que se aplican secuencialmente al procesar un texto o documento de texto. Cada etapa de la pipeline tiene un propósito específico y procesa el texto de alguna manera antes de pasar los resultados a la siguiente etapa. Las pipelines de NLP son fundamentales para realizar tareas de análisis de texto y extracción de información de manera sistemática y estructurada.</div>
```

:::{figure-md} markdown-fig
<img src="Pipeline NLTK.jpg" alt="NLP" width="500px">
Pipeline de NLP
::: 

<div align="justify">A continuación se presenta  una descripción general de las etapas comunes en un pipeline de PNL:</div>

1. <div align="justify"><strong>Recolección de Datos</strong>:Obtención de datos de texto desde diversas fuentes, como bases de datos, documentos, sitios web, redes sociales, etc.</div><br>
2. <div align="justify"><strong>Preprocesamiento de Datos</strong>:</div>
    
- <div align="justify"><strong>Limpieza de Datos</strong>: Eliminación de caracteres no deseados, corrección de errores tipográficos, manejo de texto en mayúsculas y minúsculas.</div>
- <div align="justify"><strong>Tokenización</strong>: División del texto en unidades más pequeñas, como palabras o frases.</div>
- <div align="justify"><strong>Eliminación de Stop Words</strong>: Eliminación de palabras comunes que no aportan mucho significado (ej. "el", "la", "de" en español).</div>
- <div align="justify"><strong>Normalización</strong>: Convertir palabras a su forma base o raíz, por ejemplo, usando lematización o stemming.</div>

3. <div align="justify"><strong>Representación de Texto(Codificación)</strong>: Transformar texto en una representación numérica adecuada para su procesamiento. Métodos comunes incluyen Bag of Words, TF-IDF, y embeddings (ej. Word2Vec, GloVe, BERT).</div><br>

4. <div align="justify"><strong>Análisis Sintáctico</strong>:</div>
    
- <div align="justify"><strong>Etiquetado de Partes del Discurso (POS Tagging)</strong>: Asignar etiquetas gramaticales a cada token (ej. sustantivo, verbo).</div>
- <div align="justify"><strong>Reconocimiento de Entidades Nombradas (NER)</strong>: Identificar y clasificar entidades mencionadas en el texto (ej. nombres de personas, lugares, organizaciones).</div>

5. <div align="justify"><strong>Análisis Semántico</strong>:</div>
- <div align="justify"><strong>Desambiguación de Palabras</strong>: Determinar el significado correcto de una palabra que tiene múltiples sentidos en un contexto específico.</div>
- <div align="justify"><strong>Extracción de Relaciones</strong>: Identificar relaciones entre entidades en el texto.</div>

6. <div align="justify"><strong>Modelado y Análisis</strong>:</div>
- <div align="justify"><strong>Análisis de Sentimientos</strong>: Determinar la actitud o emoción expresada en el texto.</div>
- <div align="justify"><strong>Clasificación de Texto</strong>: Asignar categorías o etiquetas a fragmentos de texto.</div>
- <div align="justify"><strong>Generación de Texto</strong>: Crear texto nuevo basado en el aprendizaje de un corpus existente.</div>

7. <div align="justify"><strong>Evaluación y Mejora</strong>:</div>
- <div align="justify">Evaluar los resultados del análisis utilizando métricas adecuadas (precisión, recall, F1-score).</div>
- <div align="justify">Ajustar y mejorar los modelos basándose en la evaluación.</div>

8. <div align="justify"><strong>Implementación</strong> del modelo en un entorno de producción para su uso en aplicaciones reales.</div>